Máy học là gì? Các công bố khoa học về Máy học

Máy học (Machine learning) là một nhánh của trí tuệ nhân tạo (AI) nghiên cứu về việc thiết kế và phát triển các thuật toán cho các hệ thống có khả năng tự học v...

Máy học (Machine learning) là một nhánh của trí tuệ nhân tạo (AI) nghiên cứu về việc thiết kế và phát triển các thuật toán cho các hệ thống có khả năng tự học và cải thiện từ dữ liệu mà không cần lập trình cụ thể. Máy học giúp máy tính tự động học hỏi và phân tích dữ liệu để tạo ra các dự đoán hoặc đưa ra quyết định mà không cần được lập trình trực tiếp. Các ứng dụng của máy học có thể nằm trong các lĩnh vực như nhận diện giọng nói, nhận dạng hình ảnh, phân loại dữ liệu, dự đoán kết quả và hỗ trợ quyết định.
Máy học có ba dạng chính: học có giám sát (supervised learning), học không giám sát (unsupervised learning), và học bán giám sát (semi-supervised learning).

1. Học có giám sát: Trong học có giám sát, một nhãn đã biết trước được gán cho mỗi mẫu đào tạo để hướng dẫn quá trình học. Mục tiêu là xây dựng mô hình dự đoán một nhãn cho các dữ liệu mới. Ví dụ, trong bài toán phân loại ảnh, mỗi ảnh sẽ có nhãn đích như "mèo" hoặc "chó". Các thuật toán phổ biến trong học có giám sát bao gồm hồi quy tuyến tính, máy vector hỗ trợ (SVM), và mạng neural.

2. Học không giám sát: Trong học không giám sát, không có nhãn được cung cấp cho dữ liệu đầu vào. Mục tiêu của học không giám sát là tìm ra cấu trúc, mô hình hoặc nhóm dữ liệu. Ví dụ, trong phân cụm dữ liệu, thuật toán cố gắng nhóm các mẫu dữ liệu vào các cụm dựa trên đặc điểm chung của chúng. Các thuật toán phổ biến trong học không giám sát bao gồm K-means, Gaussian Mixture Models (GMM), và thuật toán Apriori.

3. Học bán giám sát: Là một sự kết hợp giữa học có giám sát và học không giám sát. Một phần dữ liệu có nhãn và một phần không có nhãn được sử dụng để huấn luyện mô hình. Mục tiêu là phát triển một mô hình có khả năng dự đoán nhãn cho các dữ liệu mới mà không cần nhãn đích cho tất cả các mẫu. Điều này hữu ích trong những tình huống khi việc gán nhãn dữ liệu tốn kém hoặc mất nhiều công sức.
Dưới đây là một số khái niệm chi tiết hơn liên quan đến máy học:

1. Tập dữ liệu (Dataset): Tập dữ liệu là tập hợp các mẫu dữ liệu mà mô hình máy học được huấn luyện hoặc kiểm tra. Mỗi mẫu dữ liệu trong tập dữ liệu có thể bao gồm nhiều đặc trưng (features) và một nhãn (label) đích (trong trường hợp học có giám sát).

2. Huấn luyện (Training): Quá trình huấn luyện là quá trình truyền thông tin từ tập dữ liệu huấn luyện vào mô hình máy học. Mô hình sẽ sử dụng các thuật toán và phương pháp để học từ dữ liệu và thích nghi với nó. Mục tiêu của quá trình huấn luyện là tìm ra các thông số và mô hình tối ưu nhất để dự đoán đúng các dữ liệu mới.

3. Mô hình (Model): Mô hình trong máy học là một hàm toán học hoặc một tập hợp các quy tắc mà máy tính sử dụng để dự đoán hoặc phân loại dữ liệu mới. Mô hình có thể đại diện cho một loại học tập cụ thể như hồi quy tuyến tính, cây quyết định, hoặc mạng neural, và cần được huấn luyện để phù hợp với mục tiêu xác định.

4. Đánh giá (Evaluation): Đánh giá là quá trình đo lường hiệu suất của mô hình trên tập dữ liệu kiểm tra hoặc tập dữ liệu không được sử dụng trong quá trình huấn luyện. Đánh giá thường sử dụng các thước đo như độ chính xác (accuracy), độ mất mát (loss), độ phân loại đúng (precision), độ phủ (recall), và F1 score để đánh giá mức độ hiệu quả của mô hình.

5. Học trực tuyến (Online learning): Học trực tuyến là một hình thức của máy học nơ-ron mà mô hình được huấn luyện liên tục trên dữ liệu khi dữ liệu mới được đưa vào. Điều này cho phép mô hình cập nhật và thích nghi với thông tin mới mà không cần phải huấn luyện lại từ đầu.

6. Đặc trưng (Features): Đặc trưng là các thuộc tính hoặc đặc điểm quan trọng của dữ liệu mà mô hình sử dụng để dự đoán hay phân loại. Việc chọn và rút trích đặc trưng quan trọng từ dữ liệu đầu vào có thể ảnh hưởng đến hiệu suất của mô hình.

7. Gán nhãn (Labeling): Gán nhãn là quá trình gắn nhãn hoặc phân loại các mẫu dữ liệu với nhãn đích hoặc các nhóm cụ thể. Gán nhãn dữ liệu là một công việc tốn kém và phải được thực hiện bởi con người, vì vậy sự tự động hóa gán nhãn là một lĩnh vực quan trọng trong máy học.

Thông qua việc áp dụng và phân tích dữ liệu, máy học hỗ trợ trong việc giải quyết các bài toán phức tạp và đưa ra dự đoán chính xác và đáng tin cậy.

Danh sách công bố khoa học về chủ đề "máy học":

Dự đoán cấu trúc protein với độ chính xác cao bằng AlphaFold Dịch bởi AI
Nature - Tập 596 Số 7873 - Trang 583-589 - 2021
Tóm tắt

Protein là yếu tố thiết yếu của sự sống, và việc hiểu cấu trúc của chúng có thể tạo điều kiện thuận lợi cho việc hiểu cơ chế hoạt động của chúng. Thông qua một nỗ lực thử nghiệm khổng lồ1–4, cấu trúc của khoảng 100.000 protein độc nhất đã được xác định5, nhưng điều này chỉ đại diện cho một phần nhỏ trong hàng tỷ chuỗi protein đã biết6,7. Phạm vi bao phủ cấu trúc đang bị thắt nút bởi thời gian từ vài tháng đến vài năm cần thiết để xác định cấu trúc của một protein đơn lẻ. Các phương pháp tính toán chính xác là cần thiết để giải quyết vấn đề này và cho phép tin học cấu trúc lớn. Việc dự đoán cấu trúc ba chiều mà một protein sẽ chấp nhận chỉ dựa trên chuỗi axit amin của nó - thành phần dự đoán cấu trúc của 'vấn đề gấp nếp protein'8 - đã là một vấn đề nghiên cứu mở quan trọng trong hơn 50 năm9. Dù đã có những tiến bộ gần đây10–14, các phương pháp hiện tại vẫn chưa đạt đến độ chính xác nguyên tử, đặc biệt khi không có cấu trúc tương đồng nào được biết đến. Tại đây, chúng tôi cung cấp phương pháp tính toán đầu tiên có khả năng dự đoán cấu trúc protein với độ chính xác nguyên tử ngay cả trong trường hợp không có cấu trúc tương tự nào được biết. Chúng tôi đã xác nhận một phiên bản thiết kế hoàn toàn mới của mô hình dựa trên mạng neuron, AlphaFold, trong cuộc thi Đánh giá Cấu trúc Protein Phê bình lần thứ 14 (CASP14)15, cho thấy độ chính xác có thể cạnh tranh với các cấu trúc thử nghiệm trong phần lớn các trường hợp và vượt trội hơn các phương pháp khác đáng kể. Cơ sở của phiên bản mới nhất của AlphaFold là cách tiếp cận học máy mới kết hợp kiến thức vật lý và sinh học về cấu trúc protein, tận dụng các sắp xếp nhiều chuỗi, vào thiết kế của thuật toán học sâu.

#dự đoán cấu trúc protein #AlphaFold #học máy #mô hình mạng neuron #sắp xếp nhiều chuỗi #bộ đồ chuẩn hóa #chính xác nguyên tử #tin học cấu trúc #vấn đề gấp nếp protein #CASP14
Học máy: Xu hướng, góc nhìn, và triển vọng Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 349 Số 6245 - Trang 255-260 - 2015

Học máy (Machine learning) nghiên cứu vấn đề làm thế nào để xây dựng các hệ thống máy tính tự động cải thiện qua kinh nghiệm. Đây là một trong những lĩnh vực kỹ thuật phát triển nhanh chóng hiện nay, nằm tại giao điểm của khoa học máy tính và thống kê, và là cốt lõi của trí tuệ nhân tạo và khoa học dữ liệu. Tiến bộ gần đây trong học máy được thúc đẩy bởi sự phát triển của các thuật toán và lý thuyết học mới cùng với sự bùng nổ liên tục trong việc sẵn có dữ liệu trực tuyến và khả năng tính toán chi phí thấp. Việc áp dụng các phương pháp học máy dựa trên dữ liệu đã xuất hiện trong khoa học, công nghệ và thương mại, dẫn đến việc ra quyết định dựa trên bằng chứng trong nhiều lĩnh vực cuộc sống, bao gồm chăm sóc sức khỏe, sản xuất, giáo dục, mô hình tài chính, cảnh sát và tiếp thị.

#Học máy #trí tuệ nhân tạo #khoa học dữ liệu #thuật toán #dữ liệu trực tuyến #tính toán chi phí thấp #ra quyết định dựa trên bằng chứng #chăm sóc sức khỏe #sản xuất #giáo dục #mô hình tài chính #cảnh sát #tiếp thị.
Nghiên cứu về hành vi của một số phương pháp cân bằng dữ liệu huấn luyện máy học Dịch bởi AI
Association for Computing Machinery (ACM) - Tập 6 Số 1 - Trang 20-29 - 2004

Có nhiều khía cạnh có thể ảnh hưởng đến hiệu suất đạt được bởi các hệ thống học hiện tại. Đã có báo cáo rằng một trong những khía cạnh này liên quan đến sự mất cân bằng lớp, trong đó các ví dụ trong dữ liệu huấn luyện thuộc về một lớp nào đó vượt trội số lượng so với các ví dụ thuộc lớp khác. Trong tình huống này, xảy ra trong dữ liệu thế giới thực mô tả một sự kiện hiếm nhưng quan trọng, hệ thống học có thể gặp khó khăn trong việc học khái niệm liên quan đến lớp thiểu số. Trong nghiên cứu này, chúng tôi thực hiện một đánh giá thực nghiệm rộng rãi với mười phương pháp, trong đó ba phương pháp do các tác giả đề xuất, nhằm giải quyết vấn đề mất cân bằng lớp trong mười ba tập dữ liệu UCI. Các thí nghiệm của chúng tôi cung cấp bằng chứng rằng sự mất cân bằng lớp không làm giảm hiệu suất của các hệ thống học một cách hệ thống. Thực tế, vấn đề dường như liên quan đến việc học với quá ít ví dụ thuộc lớp thiểu số trong bối cảnh có các yếu tố phức tạp khác, chẳng hạn như sự chồng chéo lớp. Hai phương pháp do chúng tôi đề xuất xử lý trực tiếp các điều kiện này, kết hợp một phương pháp tăng mẫu đã biết với các phương pháp làm sạch dữ liệu nhằm tạo ra các cụm lớp được định nghĩa rõ hơn. Các thí nghiệm so sánh của chúng tôi cho thấy, nói chung, các phương pháp tăng mẫu cung cấp kết quả chính xác hơn so với các phương pháp giảm mẫu khi xem xét diện tích dưới đường cong ROC (AUC). Kết quả này dường như mâu thuẫn với các kết quả được công bố trước đó trong tài liệu. Hai phương pháp mà chúng tôi đề xuất, Smote + Tomek và Smote + ENN, đã trình bày kết quả rất tốt cho các tập dữ liệu có số lượng ví dụ dương nhỏ. Hơn nữa, phương pháp tăng mẫu ngẫu nhiên, một phương pháp rất đơn giản, lại rất cạnh tranh so với các phương pháp tăng mẫu phức tạp hơn. Vì các phương pháp tăng mẫu cung cấp kết quả hiệu suất rất tốt, chúng tôi cũng đo lường độ phức tạp cú pháp của các cây quyết định được tạo ra từ dữ liệu đã tăng mẫu. Kết quả của chúng tôi cho thấy rằng các cây này thường phức tạp hơn so với những cây được tạo ra từ dữ liệu gốc. Tăng mẫu ngẫu nhiên thường tạo ra sự gia tăng nhỏ nhất về số lượng quy tắc được tạo ra và Smote + ENN có sự gia tăng nhỏ nhất về số lượng điều kiện trung bình trên mỗi quy tắc, khi được so sánh giữa các phương pháp tăng mẫu được điều tra.

Học Máy Trong Y Học Dịch bởi AI
Ovid Technologies (Wolters Kluwer Health) - Tập 132 Số 20 - Trang 1920-1930 - 2015

Nhờ vào những tiến bộ trong công suất xử lý, bộ nhớ, lưu trữ và kho dữ liệu chưa từng có, máy tính đang được yêu cầu giải quyết những nhiệm vụ học tập ngày càng phức tạp, thường đạt được thành công bất ngờ. Máy tính giờ đây đã thành thạo một biến thể phổ biến của trò chơi poker, học các luật vật lý từ dữ liệu thực nghiệm, và trở thành chuyên gia trong các trò chơi điện tử - những nhiệm vụ mà không lâu trước đây được coi là không thể thực hiện. Song song với đó, số lượng các công ty tập trung vào việc áp dụng phân tích dữ liệu phức tạp vào các ngành công nghiệp đa dạng đã bùng nổ, do đó không có gì đáng ngạc nhiên khi một số công ty phân tích đang chuyển sự chú ý đến các vấn đề trong lĩnh vực chăm sóc sức khỏe. Mục đích của bài đánh giá này là khám phá những vấn đề trong y học có thể được hưởng lợi từ các phương pháp học tập như vậy và sử dụng các ví dụ từ tài liệu để giới thiệu những khái niệm cơ bản trong học máy. Điều quan trọng là lưu ý rằng các tập dữ liệu y tế có vẻ đủ lớn và các thuật toán học tập thích hợp đã có sẵn trong nhiều thập kỷ, và mặc dù có hàng ngàn tài liệu áp dụng các thuật toán học máy vào dữ liệu y tế, rất ít trong số đó đã góp phần đáng kể vào việc chăm sóc lâm sàng. Sự thiếu tác động này nổi bật đối lập với sự liên quan khổng lồ của học máy đối với nhiều ngành công nghiệp khác. Do đó, một phần nỗ lực của tôi sẽ là xác định những trở ngại nào có thể tồn tại trong việc thay đổi thực hành y học thông qua các phương pháp học thống kê và thảo luận về cách thức vượt qua những trở ngại này.

#học máy #sức khỏe #phân tích dữ liệu #thuật toán #chăm sóc lâm sàng
Hệ thống máy bay không người lái trong cảm biến từ xa và nghiên cứu khoa học: Phân loại và những điều cần cân nhắc khi sử dụng Dịch bởi AI
Remote Sensing - Tập 4 Số 6 - Trang 1671-1692

Các hệ thống máy bay không người lái (UAS) đã phát triển nhanh chóng trong thập kỷ qua, chủ yếu nhờ vào các ứng dụng quân sự, và đã bắt đầu có chỗ đứng trong số các người dùng dân sự cho mục đích trinh sát cảm biến trái đất và thu thập dữ liệu khoa học. Trong số các UAS, những đặc điểm hứa hẹn bao gồm thời gian bay dài, độ an toàn trong nhiệm vụ được cải thiện, khả năng lặp lại chuyến bay nhờ vào việc nâng cấp hệ thống lái tự động, và giảm chi phí vận hành so với máy bay có người lái. Tuy nhiên, những lợi thế tiềm năng của một nền tảng không người lái phụ thuộc vào nhiều yếu tố, chẳng hạn như loại máy bay, loại cảm biến, mục tiêu của nhiệm vụ, và các yêu cầu quy định hiện hành dành cho hoạt động của nền tảng cụ thể. Các quy định liên quan đến việc vận hành UAS vẫn đang trong giai đoạn phát triển ban đầu và hiện tại tạo ra rào cản đáng kể cho người dùng khoa học. Trong bài viết này, chúng tôi mô tả nhiều loại nền tảng, cũng như khả năng của các cảm biến, và xác định những lợi thế của mỗi nền tảng liên quan đến các yêu cầu của người dùng trong lĩnh vực nghiên cứu khoa học. Chúng tôi cũng sẽ thảo luận ngắn gọn về tình trạng hiện tại của các quy định ảnh hưởng đến hoạt động của UAS, với mục đích thông báo cho cộng đồng khoa học về công nghệ đang phát triển này, mà tiềm năng cách mạng hóa quan sát khoa học tự nhiên tương tự như những biến đổi mà GIS và GPS đã mang lại cho cộng đồng hai thập kỷ trước.

#Hệ thống máy bay không người lái #cảm biến từ xa #nghiên cứu khoa học #quy định UAS #công nghệ khoa học.
Các cuộc tấn công đối kháng vào máy học y tế Dịch bởi AI
American Association for the Advancement of Science (AAAS) - Tập 363 Số 6433 - Trang 1287-1289 - 2019

Những lỗ hổng mới nổi đòi hỏi các cuộc thảo luận mới

#tấn công đối kháng #máy học y tế #lỗ hổng #bảo mật #trí tuệ nhân tạo
Kỹ Thuật Xử Lý Ô Nhiễm Kim Loại Nặng Từ Đất: Tích Tụ Tự Nhiên So Với Chiết Xuất Cải Tiến Hóa Học Dịch bởi AI
Journal of Environmental Quality - Tập 30 Số 6 - Trang 1919-1926 - 2001
TÓM TẮT

Một thí nghiệm trong chậu được thực hiện để so sánh hai chiến lược xử lý ô nhiễm bằng thực vật: tích tụ tự nhiên sử dụng thực vật siêu tích tụ Zn và Cd là Thlaspi caerulescens J. Presl & C. Presl so với chiết xuất cải tiến hóa học sử dụng ngô (Zea mays L.) được xử lý bằng axit ethylenediaminetetraacetic acid (EDTA). Nghiên cứu sử dụng đất bị ô nhiễm công nghiệp và đất nông nghiệp bị ô nhiễm kim loại từ bùn thải. Ba vụ mùa của T. caerulescens trồng trong vòng 391 ngày đã loại bỏ hơn 8 mg kg−1 Cd và 200 mg kg−1 Zn từ đất bị ô nhiễm công nghiệp, tương đương 43% và 7% các kim loại trong đất. Ngược lại, nồng độ Cu cao trong đất nông nghiệp đã làm giảm nghiêm trọng sự phát triển của T. caerulescens, do đó hạn chế tiềm năng chiết xuất của nó. Quá trình xử lý bằng EDTA đã tăng đáng kể tính hòa tan của kim loại nặng trong cả hai loại đất, nhưng không dẫn đến tăng lớn hàm lượng kim loại trong chồi ngô. Chiết xuất Cd và Zn bằng ngô + EDTA nhỏ hơn nhiều so với T. caerulescens từ đất bị ô nhiễm công nghiệp, và nhỏ hơn (Cd) hoặc tương tự (Zn) so với đất nông nghiệp. Sau khi xử lý bằng EDTA, kim loại nặng hòa tan trong nước lỗ chân lông của đất chủ yếu tồn tại dưới dạng phức hợp EDTA-kim loại, duy trì trong vài tuần. Hàm lượng cao của kim loại nặng trong nước lỗ chân lông sau quá trình xử lý EDTA có thể gây nguy cơ môi trường dưới dạng ô nhiễm nước ngầm.

#Xử lý ô nhiễm #tích tụ tự nhiên #chiết xuất hóa học #kim loại nặng #<i>Thlaspi caerulescens</i> #<i>Zea mays</i> #EDTA #ô nhiễm nước ngầm #sự bền vững môi trường
Ảnh hưởng của phân chia dữ liệu đến hiệu suất của các mô hình học máy trong dự đoán độ bền cắt của đất Dịch bởi AI
Mathematical Problems in Engineering - Tập 2021 - Trang 1-15 - 2021

Mục tiêu chính của nghiên cứu này là đánh giá và so sánh hiệu suất của các thuật toán học máy (ML) khác nhau, cụ thể là Mạng Nơron Nhân Tạo (ANN), Máy Học Tăng Cường (ELM) và thuật toán Cây Tăng Cường (Boosted), khi xem xét ảnh hưởng của các tỷ lệ đào tạo đối với kiểm tra trong việc dự đoán độ bền cắt của đất, một trong những tính chất kỹ thuật địa chất quan trọng nhất trong thiết kế và xây dựng công trình. Để thực hiện điều này, một cơ sở dữ liệu gồm 538 mẫu đất thu thập từ dự án nhà máy điện Long Phú 1, Việt Nam, đã được sử dụng để tạo ra các bộ dữ liệu cho quá trình mô hình hóa. Các tỷ lệ khác nhau (tức là 10/90, 20/80, 30/70, 40/60, 50/50, 60/40, 70/30, 80/20, và 90/10) đã được sử dụng để chia bộ dữ liệu thành bộ dữ liệu đào tạo và kiểm tra nhằm đánh giá hiệu suất của các mô hình. Các chỉ số thống kê phổ biến, chẳng hạn như Lỗi Bình Phương Trung Bình (RMSE), Lỗi Tuyệt Đối Trung Bình (MAE) và Hệ Số Tương Quan (R), đã được sử dụng để đánh giá khả năng dự báo của các mô hình dưới các tỷ lệ đào tạo và kiểm tra khác nhau. Ngoài ra, mô phỏng Monte Carlo đã được thực hiện đồng thời để đánh giá hiệu suất của các mô hình đề xuất, có tính đến ảnh hưởng của lấy mẫu ngẫu nhiên. Kết quả cho thấy mặc dù cả ba mô hình ML đều hoạt động tốt, nhưng ANN là mô hình chính xác nhất và ổn định nhất về mặt thống kê sau 1000 lần mô phỏng Monte Carlo (R Trung Bình = 0.9348) so với các mô hình khác như Boosted (R Trung Bình = 0.9192) và ELM (R Trung Bình = 0.8703). Điều tra về hiệu suất của các mô hình cho thấy khả năng dự báo của các mô hình ML bị ảnh hưởng lớn bởi các tỷ lệ đào tạo/kiểm tra, trong đó tỷ lệ 70/30 thể hiện hiệu suất tốt nhất của các mô hình. Một cách ngắn gọn, kết quả được trình bày ở đây thể hiện một cách thức hiệu quả trong việc lựa chọn các tỷ lệ dữ liệu phù hợp và mô hình ML tốt nhất để dự đoán chính xác độ bền cắt của đất, điều này sẽ hữu ích trong các giai đoạn thiết kế và kỹ thuật của các dự án xây dựng.

#Học máy #độ bền cắt của đất #Mạng Nơron Nhân Tạo #Máy Học Tăng Cường #thuật toán Cây Tăng Cường #mô phỏng Monte Carlo #địa chất công trình #phân chia dữ liệu #chỉ số thống kê #kỹ thuật dân dụng
Học máy khoa học thông qua mạng nơ-ron có thông tin vật lý: Chúng ta đang ở đâu và điều gì đang chờ đón? Dịch bởi AI
Springer Science and Business Media LLC - Tập 92 Số 3 - 2022
Tóm tắt

Các Mạng Nơ-ron Có Thông Tin Vật Lý (PINN) là các mạng nơ-ron (NN) mà trong đó nội dung các phương trình mô hình, như Phương Trình Vi Phân Bộ (PDE), được mã hóa như một thành phần của chính mạng nơ-ron. Hiện nay, PINNs được sử dụng để giải các phương trình PDE, phương trình phân thức, phương trình tích phân-vi phân, và các phương trình PDE ngẫu nhiên. Phương pháp mới này đã xuất hiện như một khuôn khổ học tập đa nhiệm trong đó một NN phải khớp với dữ liệu quan sát trong khi giảm thiểu phần dư của PDE. Bài viết này cung cấp một đánh giá toàn diện về tài liệu liên quan đến PINNs: trong khi mục tiêu chính của nghiên cứu là xác định đặc điểm của các mạng này cùng những ưu điểm và nhược điểm liên quan của chúng. Đánh giá này cũng cố gắng đưa vào các công bố về một phạm vi rộng hơn của các mạng nơ-ron có thông tin vật lý dựa trên phương pháp phân bố điểm, mà xuất phát từ PINN cơ bản, cũng như nhiều biến thể khác, chẳng hạn như mạng nơ-ron bị hạn chế bởi vật lý (PCNN), hp-VPINN biến thiên, và PINN bảo tồn (CPINN). Nghiên cứu chỉ ra rằng hầu hết các nghiên cứu đã tập trung vào việc tùy chỉnh PINN qua các hàm kích hoạt khác nhau, kỹ thuật tối ưu hóa gradient, cấu trúc mạng nơ-ron, và cấu trúc hàm mất mát. Mặc dù có nhiều ứng dụng mà PINN đã được sử dụng, thông qua việc chứng minh khả năng của chúng dễ thực hiện hơn trong một số bối cảnh so với các kỹ thuật số truyền thống như Phương Pháp Phần Tử Hữu Hạn (FEM), vẫn còn những tiến bộ có thể xảy ra, đặc biệt là các vấn đề lý thuyết vẫn chưa được giải quyết.

Google Earth Engine, Dữ liệu vệ tinh truy cập mở, và Máy học hỗ trợ lập bản đồ xác suất đầm lầy trên diện rộng Dịch bởi AI
Remote Sensing - Tập 9 Số 12 - Trang 1315
Các tiến bộ hiện đại trong điện toán đám mây và các thuật toán máy học đang thay đổi cách sử dụng dữ liệu quan sát Trái Đất (EO) để giám sát môi trường, đặc biệt là trong thời kỳ dữ liệu vệ tinh truy cập mở và miễn phí đang trở nên phổ biến. Việc phân định đầm lầy là một ứng dụng đặc biệt có giá trị của xu hướng nghiên cứu nổi lên này, vì đầm lầy là một thành phần quan trọng về sinh thái nhưng lại thường bị thiếu đại diện trong các chương trình lập bản đồ và giám sát hiện đại, đặc biệt ở cấp độ khu vực và quốc gia. Lợi dụng Google Earth Engine và phần mềm thống kê R, chúng tôi đã phát triển một quy trình công việc để dự đoán khả năng xuất hiện đầm lầy sử dụng mô hình máy học cây hồi quy tăng cường được áp dụng cho dữ liệu địa hình số và EO. Nghiên cứu tại khu vực 13.700 km2 ở Bắc Alberta, mô hình tốt nhất của chúng tôi đã cho ra kết quả xuất sắc, với giá trị AUC (diện tích dưới đường cong đặc tính hoạt động của máy thu) là 0.898 và giá trị sự biến thiên giải thích là 0.708. Kết quả của chúng tôi chứng tỏ vai trò trung tâm của các biến địa hình chất lượng cao trong việc mô hình hóa phân bố đầm lầy ở quy mô khu vực. Việc bao gồm các biến quang học và/hoặc radar vào quy trình đã cải thiện đáng kể hiệu suất của mô hình, mặc dù dữ liệu quang học hoạt động tốt hơn một chút. Việc chuyển đổi mô hình khả năng xuất hiện đầm lầy của chúng tôi thành phân loại nhị phân Wet-Dry cho độ chính xác tổng thể 85%, gần như giống với giá trị thu được từ giải pháp Tổng hợp Đầm lầy Alberta (AMWI): bản kiểm kê đương đại được Chính phủ Alberta sử dụng. Tuy nhiên, quy trình công việc của chúng tôi chứa đựng một số lợi thế chính so với quy trình được sử dụng để sản xuất AMWI, và cung cấp một nền tảng có thể mở rộng cho các sáng kiến giám sát toàn tỉnh.
#Điện toán đám mây #Máy học #Dữ liệu quan sát Trái Đất #Phân định đầm lầy #Google Earth Engine #Hồi quy tăng cường #Alberta #Vệ tinh truy cập mở #Mô hình hóa đầm lầy #Biến địa hình #Dữ liệu quang học #Dữ liệu radar
Tổng số: 525   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10